Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving

نویسندگان

  • Guillaume J. Laurent
  • Emmanuel Piat
چکیده

RÉSUMÉ. Cet article présente les résultats expérimentaux obtenus avec une architecture originale permettant un apprentissage générique dans le cadre de processus décisionnels de Markov factorisés observables dans le désordre (PDMFOD). L’article décrit tout d’abord le cadre formel des PDMFOD puis le fonctionnement de l’algorithme, notamment le principe de parallélisation et l’attribution dynamique des récompenses. L’architecture est ensuite appliquée à deux problèmes de navigation, l’un dans un labyrinthe et l’autre dans un trafic routier (New York Driving). Les tests montrent que l’architecture permet effectivement d’apprendre une politique de décisions performante et générique malgré le nombre élevé de dimensions des espaces d’états des deux systèmes.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)

dernières années dans des contextes mono et multi-agents, mais aussi robotique. L'analyse de ces travaux et de l'état de l'art du domaine me conforte dans l'idée que la principale diculté pour l'agent est bien celle de trouver des représentations adaptées, utiles et pertinentes. J'argumente que l'on se retrouve face à une problématique fondamentale de la cognition, intimement liée aux problèmes...

متن کامل

فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان

Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...

متن کامل

مواد غذایی تراریخته و حقوق مصرف‌کننده

Le droit d’avoir le choix des produits alimentaires et leurs genres est l’un des droits essentiaux de l’homme qui n’est pas privatif. Ce droit a la signification de posséder et l’engagement moral qui est légal selon l’imagination et l’affirmation du droit de chaque individu de la société. Si le public aurait le droit au ca...

متن کامل

Apprentissage de la structure des processus de décision markoviens factorisés pour l’apprentissage par renforcement

Des algorithmes de planification récents issus de la théorie de la décision sont capables de trouver des politiques optimales ou quasi-optimales sur des problèmes de grande taille en utilisant le formalisme des processus de décision markoviens factorisés (FMDPs). Cependant, ces algorithmes ont besoin d’une connaissance a priori de la structure des problèmes qu’ils résolvent. Dans cette contribu...

متن کامل

Inspiration nihiliste dans La Chouette aveugle de Sadegh Hedayat

La Chouette aveugle de Sadegh Hedayat, auteur iranien, qui appartient à la catégorie des œuvres dites « noires », se fonde sur une inspiration nihiliste. Malgré l’influence indéniable de la philosophie nihiliste dans la création de cette œuvre compliquée, il n’y a aucune étude cohérente qui traite ce sujet de différents points de vue. Ce qui est certain, c’est que Hedayat était un lecteur atten...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Revue d'Intelligence Artificielle

دوره 20  شماره 

صفحات  -

تاریخ انتشار 2006